Loading...
机构名称:
¥ 1.0

当转换和奖励函数未知时,马尔可夫决策过程是现代强化学习领域的基础数学形式化。我们推导出一个伪布尔成本函数,它相当于离散、有限、折现马尔可夫决策过程的 K 自旋汉密尔顿表示,具有无限的视界。这个 K 自旋汉密尔顿提供了一个起点,可以使用启发式量子算法(例如绝热量子退火和近期量子硬件上的量子近似优化算法)来求解最优策略。在证明我们的汉密尔顿的变分最小化等同于贝尔曼最优条件时,我们建立了与经典场论的有趣类比。除了通过模拟和量子退火与经典 Q 学习进行概念验证计算以证实我们的公式外,我们还分析了在量子硬件上解决汉密尔顿所需的物理资源的扩展。

arXiv:2004.06040v1 [quant-ph] 2020 年 4 月 13 日 - NSF-PAR

arXiv:2004.06040v1 [quant-ph] 2020 年 4 月 13 日 - NSF-PARPDF文件第1页

arXiv:2004.06040v1 [quant-ph] 2020 年 4 月 13 日 - NSF-PARPDF文件第2页

arXiv:2004.06040v1 [quant-ph] 2020 年 4 月 13 日 - NSF-PARPDF文件第3页

arXiv:2004.06040v1 [quant-ph] 2020 年 4 月 13 日 - NSF-PARPDF文件第4页

arXiv:2004.06040v1 [quant-ph] 2020 年 4 月 13 日 - NSF-PARPDF文件第5页

相关文件推荐